扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:赛迪网 Alizze 来源:天新网 2008年3月22日
关键字: Mssql 数据库 SQL SQL Server
在本页阅读全文(共2页)
特征归约处理期望达到的效果:
(1)提高模型生成过程和所得模型本身的性能
(2)在不降低模型质量的情况下减少模型维度
(3)帮助用户可视化有更少维数的可能结果,改进决策。
2、主成分分析:
主成分分析是大型数据集归约的一种统计方法。是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集,转换的目标是将不同样本中的信息集中在较小的维度中。
一个n维向量样本集X={x1,x2,x3,…,xm},转换为另一个相同维度的集Y={y1,y2,…,ym}
Y把大部分信息内容存在前几个维中,可以让我们以低信息损失讲数据集减小到较小的维度。
Y=A*X
3、值归约:
特征离散化技术:减少已知特征的离散值数目,将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。
(1)分割点选择
(2)怎样选择区间描述
几种自动离散化技术:
(1)特征离散化
ChiMerge算法:
a.对已知特别数据进行升序排列
b.定义初始区间,使特征的每个值都在一个单独的区间内
c.重复进行直到任何两个相临区间的X2都不小于阈值。
4、案例归约:
初始数据集中最大和最关键的维度数就是案例或样本的数目。在案例规约之前,我们消除了异常点,有时也需要消除有丢失值的样本。取样误差是固有的。
取样方法分类:
(1)普通用途取样
a.系统化取样
b.随机取样:不回放/回放
基本形式有增量取样,平均取样,
c.分层取样
d.逆取样
(2)特殊用途取样
濠碘€冲€归悘澶愬箖閵娾晜濮滈悽顖涚摃閹烩晠宕氶崶鈺傜暠闁诡垰鍘栫花锛勬喆椤ゅ弧濡澘妫楅悡娆撳嫉閳ь剟寮0渚€鐛撻柛婵呮缁楀矂骞庨埀顒勫嫉椤栨瑤绻嗛柟顓у灲缁辨繈鏌囬敐鍕杽閻犱降鍨藉Σ鍕嚊閹跺鈧﹦绱旈幋鐐参楅柡鍫灦閸嬫牗绂掔捄铏规闁哄嫷鍨遍崑宥夋儍閸曨剚浠樺ù锝嗗▕閳ь剚鏌ㄧ欢鐐寸▕鐎b晝顏遍柕鍡嫹